Podría ser parte de un archivo multimedia (video, imagen, audio, etc.)…
En el computador TODO se representa con bits.
representación=bits+contexto
Eso significa que todo es discreto.
No existe ni el infinito ni lo continuo.
Alta fidelidad no es continuidad.
Alta fidelidad no es continuidad.
Alta fidelidad no es continuidad.
Alta fidelidad no es continuidad.
Alta fidelidad no es continuidad.
Alta fidelidad no es continuidad. Pero puede ser suficiente…
No necesitamos la realidad, necesitamos una buena aproximación. Suficiente para engañar a los sentidos.
Una película de 24 FPS es suficiente para engañar al ojo humano.
Moraleja de Parte 1
Ninguna representación en el computador es perfecta.
LLMs no son perfectos, pero no necesitamos que lo sean.
Parte 2
El computador parlanchín
¿Cómo representar una palabra?
Representación textual
Si solo queremos transcribir texto, basta con representar cada letra con una secuencia de bits, y almacenarla.
ASCII
1 byte (8 bits): 128 carácteres posibles
0 (48) … 9 (57)
A (65) … Z (90)
a (97) … z (122)
Problema: Faltan muchos carácteres: Ñ, ñ, á, é, í, ó, ú, u
UTF-8
1 a 4 bytes (8 a 32 bits)
Mantiene ASCII sin cambios
Permite representar alfabetos latinos, griego, cirílico, copto, armenio, hebreo, árabe, siríaco, thaana, y n’ko, además de caracteres chinos, japoneses y coreanos.
Incluye emojis 😁, simbolos ✅ y mil cosas más 🗿
Representación semántica
Semántica: relativo al significado de las palabras.
Si quieres que el computador pueda interpretar el sentido de cada palabra, es necesario almacenar cada palabra como un todo. No puede descomponerse en sus letras.
Objetivo: Evaluar distintos textos, en distintos idiomas.
Ejemplo 1: La informática, también llamada computación, es el área de la ciencia que se encarga de estudiar la administración de métodos, técnicas y procesos con el fin de almacenar, procesar y transmitir información y datos en formato digital.
Ejemplo 2: Computing is any goal-oriented activity requiring, benefiting from, or creating computing machinery. It includes the study and experimentation of algorithmic processes, and the development of both hardware and software. Computing has scientific, engineering, mathematical, technological, and social aspects.
Tiempo: 5 minutos
Nota: Definiciones extraídas de wikipedia.
Aprendizajes de Actividad 2.1
Palabra != Token
Cada token tiene un identificador único
En inglés, 100 tokens ~= 75 palabras.
2 palabras pueden ser idénticas pero tener distinto token
¿LLM?
LLM = Large Language Model = Grandes Modelos de Lenguaje
Diagrama técnico de un LLM
Diagrama de funcionamiento de un LLM que se filtró de OpenAI: